中國AI初創公司DeepSeek計劃進行首輪大規模融資,目標籌集約500億元人民幣(約74億美元),融資後估值預計達3500億至4000億元人民幣。該公司憑藉V3和R1模型在全球引發關注,改變了外界對中國大模型研發實力的看法。
AI獨角獸DeepSeek近期啓動首次對外融資,目標估值超200億美元,騰訊與阿里均有意參與。儘管公司此前依賴創始人梁文鋒的量化交易資金,並無急迫融資需求,但此舉旨在通過股權激勵留住核心人才,應對R1論文作者郭達雅、研究員Wang Bingxuan等關鍵成員近期流失的挑戰。
DeepSeek 下週將推出 V4 大模型,新增支持圖片、視頻和文本生成功能。這是自 2025 年 1 月 R1 模型後的首次重大升級,進一步佈局國內低成本開源市場。財信證券分析師認爲,AI 應用商業化進程有望加速,尤其在春節期間,互聯網廠商正藉助高頻消費場景推動技術落地。
深度求索將於下週推出多模態大模型DeepSeek V4,原生支持圖像、視頻和文本生成。這是繼今年1月發佈R1推理模型後的首次重大更新,旨在滿足國內對低成本開源模型的需求,推動AI發展。同時將發佈簡要技術說明,詳細版本預計一個月後推出。
DeepSeek R1-0528 是一款開源大模型,性能媲美 OpenAI o3 模型。
基於DeepSeek R1和V3模型的瀏覽器側邊欄AI工具,提供問答、創作、翻譯等功能
DeepSeek-V3/R1 推理系統是一個高性能的分佈式推理架構,專為大規模 AI 模型優化設計。
一個支持DeepSeek R1的AI驅動研究助手,結合搜索引擎、網絡爬蟲和大型語言模型進行深度研究。
Deepseek
$4
輸入tokens/百萬
$12
輸出tokens/百萬
128
上下文長度
$16
32
Tencent
$0.8
$2
$8
Alibaba
-
$1.6
8
$1
Baidu
64
$100
nvidia
NVIDIA DeepSeek R1 FP4 v2是基於DeepSeek AI的DeepSeek R1模型進行FP4量化的文本生成模型,採用優化的Transformer架構,可用於商業和非商業用途。該模型通過TensorRT Model Optimizer進行量化,相比FP8版本顯著減少了磁盤大小和GPU內存需求。
NVIDIA DeepSeek-R1-0528-FP4 v2是DeepSeek R1 0528模型的量化版本,採用優化的Transformer架構,是一個自迴歸語言模型。通過FP4量化優化,減少了磁盤大小和GPU內存需求,同時保持較高推理效率。
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek R1 0528 模型的量化版本,採用優化的 Transformer 架構,權重和激活值量化為 FP4 數據類型,顯著減少磁盤大小和 GPU 內存需求,支持 TensorRT-LLM 推理引擎實現高效推理。
DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本,基於優化的 Transformer 架構的自迴歸語言模型,可用於商業和非商業用途。
Sci-fi-vy
DeepSeek-R1-0528是DeepSeek R1系列的小版本升級模型,通過增加計算資源和算法優化顯著提升了推理深度和能力,在數學、編程等多個基準測試中表現出色。
cognitivecomputations
DeepSeek R1 0528的AWQ量化模型,支持使用vLLM在8塊80GB GPU上以全上下文長度運行。
QuixiAI
DeepSeek-R1-0528-AWQ 是 DeepSeek R1 0528 的 AWQ 量化版本,通過量化技術提升了模型運行效率,修復了代碼問題,提供更穩定的服務。
DeepSeek-R1-0528是DeepSeek R1模型的小版本升級,通過增加計算資源和算法優化顯著提升了推理能力,在數學、編程和通用邏輯等多個基準評估中表現出色。
ubergarm
DeepSeek - R1T - Chimera是一個高質量的大語言模型,通過ik_llama.cpp提供的先進量化方案,在保持性能的同時顯著減少內存佔用。
Nexesenex
Hexagon Purple V2是一個基於Smartracks的三級標準合併模型,包含Deepseek Distill R1、Nemotron和Tulu能力,通過多模型合併優化性能。
qihoo360
Tiny-R1-32B-Preview 是一個基於 Deepseek-R1-Distill-Qwen-32B 的推理模型,專注於數學、代碼和科學領域,性能接近完整版 R1 模型。
suayptalha
DeepSeek-R1-Distill-Llama-3B 是基於 Llama-3.2-3B 模型,使用 R1-Distill-SFT 數據集對 DeepSeek-R1 進行蒸餾得到的版本,具備文本生成能力。
NVIDIA DeepSeek R1 FP4 模型是 DeepSeek AI 的 DeepSeek R1 模型的量化版本,使用優化 Transformer 架構的自迴歸語言模型。該模型通過 FP4 量化技術將參數位數從 8 位減少到 4 位,使磁盤大小和 GPU 內存需求減少約 1.6 倍,同時保持較高的精度性能。
DeepSeek R1模型的FP4量化版本,採用優化後的Transformer架構實現高效文本生成
duxx
本模型是基於DeepSeek-R1-Distill-Qwen-1.5B在土耳其語-R1數據集上微調的版本,主要用於土耳其語相關推理任務。
lightblue
這是DeepSeek R1模型的日語版本,專門針對日語推理任務進行微調,能夠可靠且準確地以日語響應提示。
DeepSeek R1模型的AWQ量化版本,優化了float16溢出問題,支持高效推理部署
DeepSeek R1的AWQ量化版本,由Eric Hartford和v2ray完成量化,修復了使用float16時的溢出問題。
通過集成DeepSeek R1的推理引擎增強Claude的複雜任務處理能力
本地化運行的智能代理系統,結合推理模型與工具調用模型
一個基於Node.js的Deepseek R1語言模型MCP服務器實現,支持8192令牌上下文窗口,提供穩定的Claude Desktop集成和模型參數配置。
Deepseek R1的MCP服務器實現,支持Node.js環境,提供強大的語言模型推理服務。
該項目通過集成DeepSeek R1的推理引擎增強Claude的複雜任務處理能力,提供多步驟精確推理支持。
Deepseek R1的MCP服務器實現,支持與Claude Desktop集成,提供強大的語言模型推理服務。
Thoughtful Claude是一個增強Claude推理能力的MCP服務器,通過集成DeepSeek R1的高級推理引擎,為Claude提供複雜多步推理任務處理能力。
一個利用Deepseek R1模型的思維鏈進行推理的MCP服務工具,支持在Claude Desktop等客戶端中使用。
該項目通過集成DeepSeek R1的推理引擎,增強Claude處理複雜推理任務的能力,提供高效精準的多步推理解決方案。
DeepSeek MCP Server通過集成DeepSeek R1的先進推理引擎增強Claude的推理能力,使其能夠處理複雜的多步推理任務。
DeepSeek R1與Claude結合的認知架構項目,通過R1進行高級推理規劃,Claude執行具體分析,實現多步驟邏輯推理和結構化思維處理。
DeepSeek MCP服務器通過集成DeepSeek R1的先進推理引擎增強Claude的推理能力,使其能夠處理複雜的多步推理任務。
DeepSeek-Claude MCP服務器通過整合DeepSeek R1的先進推理引擎,增強Claude處理複雜推理任務的能力。
DeepSeek MCP Server通過集成DeepSeek R1的高級推理引擎增強Claude的推理能力,使其能夠處理複雜的多步推理任務。
結合DeepSeek R1推理與Claude 3.5生成能力的MCP服務